今天我將會進行全面測試來檢測功能的運作是否正常,這次的測試和之前那次的測試差別在於:這次的測試會以情境為主,例如要求將郵件內容提取出來,並且加到待辦事項中。我將會使用這類的情境來測試系統。
收到一封郵件,內容提醒我某賣場的促銷日將在10/1開始,我想要讓小助手幫我添加進待辦事項,提醒我10/1要去那個賣場買東西:
首先我先自己寫了一篇郵件給自己:
接著我詢問小助手有沒有看到一篇關於特賣會的郵件:
讓小助手將這個行程添加到待辦事項中:
回答有關待辦事項的詳細設定:
最後回到notion中確認這項待辦事項:
可以看到第一個情境順利地完成了,途中只有遇到一個問題,就是因為用的模型太新,導致連續呼叫的次數超過速率限制而失敗,後來換成了之前的模型後就解決了這個問題。
想要學習一項新的知識,是關於語言模型的運作原理,於是我要求小助手幫我找找看我的知識庫有沒有相關內容,也順便從網路上找一些學習資源:
首先我詢問了我的需求:
接著我讓他幫我看看知識庫有沒有相關資源:
最後我讓他提供上面他給我的資源的網址:
這項情境小助手也可以順利的完成,代表網路搜尋+notion知識庫搜尋的功能都沒有問題。
今天先測試兩項情境,明天在進行最後兩項情境後,就算是完成全面測試了。
今天的兩樣情境中,小助手都能夠順利完成,這些情境都是我平常有可能會遇到的情況,能夠通過這些測試就代表在正式任務中可以順利完成。明天我們將會繼續進行情境三和四,來測試這個助手的能力。